Liquid AI推出新一代小型基礎模型LFM2.5,專爲邊緣設備和本地部署設計。該系列包括基礎版和指令版,並擴展了日語、視覺語言及音頻語言變種。模型基於LFM2混合架構,針對CPU和NPU優化,實現快速高效推理。開源權重已發佈在Hugging Face平臺。
Firefox新版默認開啓AI功能引發爭議,用戶擔憂隱私與性能問題。測試顯示啓用後CPU和內存佔用顯著增加,影響瀏覽體驗,且多數用戶不知情。
微軟Azure ND GB300v6虛擬機在Llama270B模型上創下每秒110萬token推理速度新紀錄。該成就基於與英偉達的深度合作,採用配備72個Blackwell Ultra GPU和36個Grace CPU的NVIDIA GB300NVL72系統,突顯微軟在規模化AI運算領域的專業實力。
蘋果發佈搭載M5芯片的14英寸MacBook Pro,首次針對AI任務進行硬件優化。M5芯片配備10核CPU和GPU,每個GPU核心內置神經網絡加速單元,顯著提升本地AI計算能力。集成第三代光線追蹤引擎和動態緩存技術,可智能分配顯存資源。新品續航達24小時,主打高效AI處理與圖形性能。
為Firefox瀏覽器翻譯功能優化的CPU加速神經機器翻譯模型。
一個基於音頻驅動的即時2D聊天頭像生成模型,可在僅使用CPU的設備上實現30fps的即時推理。
高效CPU本地離線LaTeX識別工具
低比特大型語言模型在CPU上的推理加速
Openai
$0.63
輸入tokens/百萬
$3.15
輸出tokens/百萬
131
上下文長度
Alibaba
-
Google
$0.7
$1.4
$0.14
$0.28
$0.35
Deepseek
$1
8
$2
128
01-ai
4
Dogacel
這是一個基於原始DeepSeek-OCR模型的優化版本,專門支持在蘋果金屬性能著色器(MPS)和CPU上進行推理的OCR模型。它能夠從圖像中提取文本並轉換為結構化格式,支持多語言文檔識別。
pnnbao-ump
VieNeu-TTS-1000h是一款先進的越南語端側文本轉語音模型,基於約1000小時高質量越南語語音數據訓練,具備即時語音克隆功能,支持越南語與英語的無縫切換,能在CPU或GPU上即時合成24kHz波形。
Qwen
Qwen3-VL是通義系列最強大的視覺語言模型,採用混合專家模型架構(MoE),提供GGUF格式權重,支持在CPU、GPU等設備上進行高效推理。模型在文本理解、視覺感知、空間理解、視頻處理等方面全面升級。
Qwen3-VL-2B-Thinking是Qwen系列中最強大的視覺語言模型之一,採用GGUF格式權重,支持在CPU、NVIDIA GPU、Apple Silicon等設備上進行高效推理。該模型具備出色的多模態理解和推理能力,特別增強了視覺感知、空間理解和智能體交互功能。
Qwen3-VL是通義系列中最強大的視覺語言模型,具備出色的文本理解和生成能力、深入的視覺感知和推理能力、長上下文支持、強大的空間和視頻動態理解能力,以及智能體交互能力。本倉庫提供GGUF格式權重,支持在CPU、GPU等設備上高效推理。
Qwen3-VL-2B-Instruct-GGUF是通義千問系列的多模態視覺語言模型的GGUF量化版本,具備20億參數,支持圖像理解和文本生成的無縫融合,可在CPU、GPU等設備上高效運行。
LeviDeHaan
SecInt是一個針對即時nginx安全日誌分類進行微調的SmolLM2-360M模型,旨在自動檢測Web服務器日誌中的安全威脅、錯誤和正常流量模式,準確率超過99%,可在CPU上實現即時檢測。
VieNeu-TTS是首個可在個人設備上運行的越南語文本轉語音模型,具備即時語音克隆能力。基於NeuTTS Air微調,能夠生成自然逼真的越南語語音,在CPU上具備即時性能。
sanchezalonsodavid17
這是DeepSeek-OCR的模態平衡量化(MBQ)變體,通過對視覺編碼器採用4位NF4量化減少內存佔用,同時保持投影器和語言/解碼器的BF16精度,可在普通GPU上進行本地部署和快速CPU試驗。
kenpath
Svara-TTS是一款面向印度語言的開源多語言文本轉語音模型,支持19種語言(18種印度語言+印度英語)。該模型基於Orpheus風格的離散音頻令牌方法構建,旨在普通GPU/CPU上實現清晰、富有表現力且低延遲的語音合成。
MikeKuykendall
這是DeepSeek公司的DeepSeek-MoE-16B模型的Q4_K_M量化版本,通過llama.cpp的Rust綁定啟用了MoE(專家混合)CPU卸載功能,顯著減少顯存使用。
這是基於WeOpenML的GPT-OSS 20B模型的GGUF格式版本,首次實現了創新的MoE CPU專家卸載技術。該技術在保持完整生成質量的同時,實現了99.9%的顯存縮減,僅需2MB顯存即可運行200億參數的混合專家模型。
bartowski
這是TheDrummer/Snowpiercer-15B-v3模型的GGUF量化版本,提供了多種量化選項,從高質量到低內存佔用,支持在CPU和GPU上高效運行。模型使用llama.cpp進行量化,並針對不同硬件進行了優化。
vito95311
這是Qwen3-Omni 31.7B參數模型的專業量化版本,採用先進的INT8+FP16混合精度量化技術,內存使用減少50%以上,支持智能GPU/CPU混合推理,讓大型多模態模型能夠在消費級硬件上高效運行。
ModernVBERT
ColModernVBERT是ModernVBERT的後期交互版本,專門針對視覺文檔檢索任務進行了微調,是該任務上性能最佳的模型。它是一個參數為2.5億的緊湊型視覺-語言編碼器,在視覺文檔基準測試中達到了近乎參數大10倍模型的性能,同時在CPU上具有可觀的推理速度。
SkynetM1
本模型是基於huihui-ai/Huihui-Tongyi-DeepResearch-30B-A3B-abliterated轉換的GGUF格式版本,專門為llama.cpp優化,支持高效的CPU推理。模型採用Q4_K_M量化級別,在保持較好性能的同時顯著減小模型體積。
samunder12
基於Llama 3.1 8B Instruct微調的GGUF量化模型,具有強勢、果斷且具有挑釁性的AI人設,專為角色扮演和創意寫作場景優化,支持在CPU或GPU上進行本地推理。
DavidAU
基於OpenAI的gpt-oss-120b模型優化的大型語言模型,使用NEO數據集進行性能提升,支持多場景應用,可在CPU、GPU或部分卸載模式下運行,具有128k上下文長度和最多128個專家的混合專家架構。
Nihal2000
這是 sentence-transformers/all-MiniLM-L6-v2 模型的 TensorFlow Lite 轉換版本,專門為邊緣設備優化。該模型可將文本映射到384維向量空間,支持語義搜索、文本相似度計算等任務。提供Float32和INT8量化兩個版本,量化版本體積縮小約4倍,在CPU上運行速度顯著提升。
這是一個基於Qwen 3平臺的編碼/編程模型,具備完整的推理能力,速度極快。在中等硬件上每秒能處理超過150個token,僅使用CPU時每秒也能處理50個以上token。它是一個通用的編碼模型,適用於生成代碼塊、構思編碼思路以及快速生成代碼草稿。
uniprof是一個簡化CPU性能分析的工具,支持多種編程語言和運行時,無需修改代碼或添加依賴,可通過Docker容器或主機模式進行一鍵式性能剖析和熱點分析。
一個基於Talos SDK的簡單MCP實現,用於從多個Talos節點獲取數據,包括磁盤、網絡接口、CPU和內存使用情況,並支持重啟節點。
基於MCP協議的Mac系統監控服務器,可監控CPU、內存和磁盤使用情況
一個為Claude提供即時系統監控功能的MCP服務器,支持CPU、內存、磁盤、網絡、電池和網速的監測。
基於Gradio的輕量級應用,使用Hugging Face Transformers進行情感分析和反諷檢測,兼容MCP架構,可在CPU上運行。
一個提供即時系統信息的MCP服務器,可獲取CPU、內存、磁盤、網絡等指標,支持跨平臺運行並通過標準化接口訪問。
Perfetto MCP是一個模型上下文協議服務器,能夠將自然語言提示轉換為專業的Perfetto跟蹤分析,幫助開發者無需編寫SQL即可進行性能分析、ANR檢測、CPU熱點線程識別、鎖競爭分析和內存洩漏檢測。
一個為Claude提供即時系統監控功能的MCP服務器,可監測CPU、內存、磁盤、網絡、電池和網速等指標。